RGB-D SOD使用深度信息来处理具有挑战性的场景并获得高质量的显着图。现有的最新RGB-D显着检测方法压倒性地取决于直接融合深度信息的策略。尽管这些方法通过各种跨模式融合策略提高了显着性预测的准确性,但通过某些质量质量较差的图像提供的错误信息可能会影响显着性预测结果。为了解决这个问题,本文提出了一种新颖的RGB-D显着对象检测模型(SIATRANS),该模型允许与SOD培训同时对深度图像质量分类进行训练。鉴于RGB和深度图像之间的常见信息,SIATRANS使用具有共享权重参数的暹罗变压器网络作为编码器,并提取RGB和深度特征在批处理尺寸上加入,从而在不损害性能的情况下节省空间资源。 SIATRANS在骨干网络(T2T-VIT)中使用类令牌来对深度图像的质量进行分类,而无需阻止令牌序列执行显着检测任务。基于变压器的跨模式融合模块(CMF)可以有效地融合RGB和深度信息。在测试过程中,CMF可以根据深度图像的质量分类信号选择融合交叉模式信息或增强RGB信息。我们设计的CMF和解码器的最大好处是,它们保持RGB和RGB-D信息解码的一致性:SIATRANS根据测试过程中的分类信号在相同的模型参数下解码RGB-D或RGB信息。在9个RGB-D SOD基准数据集上进行的全面实验表明,与最近最新方法相比,SIATRANS的总体性能和最少的计算最低。
translated by 谷歌翻译